1. 監督式學習
2. 非監督式學習
3. 集成學習
常見的迴歸係數估計方法:
最常見的是普通最小平方法(Ordinary Least Squares, OLS)
當為多元迴歸分析時(X1,X2,.....,Xn),需挑選適合的自變數X,分為三種方法:
較常使用-逐步挑選(stepwise)
四大假設:
優點:
缺點:
確認線性迴歸有over-fitting問題,再試試看"正規化迴歸"。
LASSO Regression:
嶺迴歸(Ridge Regression):
彈性網罩模型(elastic nets):
參考資料:
說明:建立二元類別機率值之勝率比,後對數值的線性分類模型,羅吉斯迴歸的依變項(Y)主要為二元的類別變項(亦即是或否,0或1),羅吉斯迴歸的自變項(X),可以是離散變數,也可以是連續變數。
參考資料:
為非線性分類模型。
基本假設:
優點:
缺點:
參考網址:
說明:
優點:
缺點:
參考資料:
說明:
優點:
缺點:
參考資料:
說明:
優點:
缺點:
專有名詞:
輸入層(Input Layer):
輸出層(Output Layer):
隱藏層(hidden Layer):
神經元(或稱感知器,Neuron):
激活函數(activation function):
損失函數(loss function):
正向傳播(forward propagation):
反向傳播(back propagation):
架構及運行方式:
優點:
缺點:
參考資料:
說明:
優點:
缺點:
參考資料:
說明:
衡量準則:
支持度(support):計算品項集合在整個交易資料庫出現的次數比,介於[0, 1],說明規則的統計顯著性。
信心度(confidence):利用支持度取出集合後,排列所有可能後挑出高信心度即為關聯規則。比如支持度挑出{A, B}兩品項,其可能規則包含{A} ⇒ {B}或{B} ⇒ {A}。{A}⇒{B}的信心度=P(B|A)=買A的人有多少個AB都買,說明規則的強度。
增益率:說明項集{A}和項集{B}之間的獨立性,公式為"AB共同出現次數/A和B單獨出現次數",若Lift=1說明{A}和{B}相互獨立,說明兩個條件沒有任何關聯。如果Lift<1,說明兩個事件是互斥的。一般認為Lift>3才是有價值的規則。
參考資料:
說明:
優點:
缺點:
參考資料:
說明:
方法:
模型:
優點:
參考資料:
說明:
模型:
是一種Boosting分類算法。
一般用於類別二分。
方法:
核心是CART迴歸樹。
引進殘差的概念。
與隨機森林差異在於:
與Adaboost不同在於:
參考資料:
說明:
參考資料: